Why Care about Quarry?

To figure out.

In [ ]:

%matplotlib inline

In [ ]:

from __future__ import print_function

In [ ]:

import datetime
from itertools import (islice, chain)
import re
import time
from collections import (Counter, OrderedDict)

# writing for eventual Python 2/3 compatability 

try:
    from urllib.parse import urlencode
except ImportError:
    from urllib import urlencode

import requests

from lxml.html import fromstring, parse

import matplotlib.pyplot as plt
from pandas import (DataFrame, Series)

from IPython.display import (display, HTML, Markdown)

In [ ]:

def quarry_result(query_id, rev_id=None, result_format='json'):
    """
    returns a dict {'status', 'output', 'query_meta' 'latest_run', 'latest_rev'} for a query_id on quarry.wmflabs.org
    """

    BASE_URL = "http://quarry.wmflabs.org"

    # get the metadata for the query
    # https://github.com/wikimedia/analytics-quarry-web/blob/e2346c5ec47d63f9514b8aef9190211fa5ff0e45/quarry/web/app.py#L402
    url = BASE_URL + "/query/{0}/meta".format(query_id)

    try: 
        query_meta = requests.get(url).json()
        status = query_meta['latest_run']['status']
        latest_run_id = query_meta['latest_run']['id']
        latest_rev_id = query_meta['latest_rev']['id']

        # if status is 'complete' and return_output is True,
        # grab the results -- unless result_format is None
        # https://github.com/wikimedia/analytics-quarry-web/blob/e2346c5ec47d63f9514b8aef9190211fa5ff0e45/quarry/web/app.py#L350

        if (status == 'complete' and result_format is not None):
            # TO DO: figure out whether 0 should be a variable
            # re: https://github.com/wikimedia/analytics-quarry-web/blob/e2346c5ec47d63f9514b8aef9190211fa5ff0e45/quarry/web/app.py#L351
            # 0 is default value for resultset_id 
            url = BASE_URL + "/run/{0}/output/0/{1}".format(latest_run_id, result_format)
            if result_format == 'json':
                output = requests.get(url).json()
            else:
                output = requests.get(url).text
        else:
            output = None

        return {'query_meta':query_meta, 
                'status': status,
                'latest_run': latest_run_id,
                'latest_rev': latest_rev_id,
                'output': output
               }
    except Exception as e:
        return e

# assume for now latest rev id same as latest run id.
# 'status':query_meta["status"]

def display_objs_for_q_result(q):
    """
    returns IPython/Jupyter display object to describe query metadata and SQL content
    (first pass)
    """

    description = q['query_meta']['query']['description']
    if description is None:
        description = ""

    return ( HTML("<b>{0}</b>".format(q['query_meta']['query']['title'])),
             HTML("<p>id: {0} ({1})</p>".format(q['query_meta']['query']['id'], 
                                                        q['query_meta']['query']['timestamp'])),
             HTML("<p>{0}</p>".format(description)),
             Markdown("""```sql\n{0}\n```""".format(q['query_meta']['latest_rev']['sql']))
            )

In [ ]:

q = quarry_result(3659, result_format='json')
display(*display_objs_for_q_result(q))

In [ ]:

q['output']

In [ ]:

df = DataFrame(q['output']['rows'], columns=['year', 'count'])
df.set_index(keys='year', inplace=True, drop=True)
df

In [ ]:

df.plot(kind='bar', title="revision counts for JSB article vs year")

In [ ]:

# types of queries

from collections import OrderedDict

query_type_headers = OrderedDict([
        ('published', 'Published queries'),
        ('draft', 'Draft Queries'),
        ('starred', 'Starred Queries')
    ])

def user_queries(username):
    """
    get all queries for a user
    e.g., parse http://quarry.wmflabs.org/RaymondYee
    """

    url = u"http://quarry.wmflabs.org/{0}".format(username)
    r = requests.get(url)
    page = requests.get(url).content.decode("UTF-8")
    doc = fromstring(page)

    # xpath expressions correlate with template
    # https://github.com/wikimedia/analytics-quarry-web/blob/e2346c5ec47d63f9514b8aef9190211fa5ff0e45/quarry/web/templates/user.html

    # number of queries
    queries = dict()
    queries['num_queries'] =int(doc.xpath('//*[@class="user-stat"]/h2/text()')[0])

    # loop through all the query types
    for (qtype, qheader) in query_type_headers.items():
        q_elements = doc.xpath('//h3[contains(text(),"{0}")][1]/following-sibling::ul[1]/li/a'.format(qheader))
        q_results = []
        for q in q_elements:
            q_id = int(q.attrib['href'].split('/')[-1])
            #result = quarry_result(q_id, result_format=None)
            q_results.append( (q_id, q.text))
        queries[qtype] = q_results

    return queries

In [ ]:

uq = user_queries('RaymondYee')
uq

In [ ]:

queries_display = ""
queries_display += "<p>number of queries: {0}</p>".format(uq['num_queries'] )

for (qtype, qheader) in query_type_headers.items():
    queries_display += "<b>{0}</b><br/>".format(qheader)
    for (q_id, q_title) in uq[qtype]:
        queries_display += "<div>{0} <a href='http://quarry.wmflabs.org/query/{0}'>{1}</a></div>".format(q_id, q_title)
    queries_display += "<br/>"

HTML(queries_display)

In [ ]:

uq

In [ ]:

ry_results = [quarry_result(q_id, result_format=None) 
    for q_id in chain([q_id for (q_id, title) in uq['published']],
                      [q_id for (q_id, title) in uq['draft']])
              ]

# the following way to display the results is a bit opaque and should be rewritten
display(*list(chain(*[display_objs_for_q_result(r) for r in ry_results if not isinstance(r, Exception)])))

In [ ]:

# problematic queries
# https://quarry.wmflabs.org/query/{q_id/}meta

try:
    from itertools import izip as zip
except:
    pass

q_ids = list(chain([q_id for (q_id, title) in uq['published']],
                      [q_id for (q_id, title) in uq['draft']]))

[(id_) for (id_,r) in zip(q_ids, ry_results) if isinstance(r, Exception)]

In [ ]:

def anchor_info_or_text(td):
    anchors = td.xpath('a')
    if anchors:
        #if anchor text in form of "/query/query_id", return just query_id
        href = anchors[0].attrib['href']
        query_search = re.search("/query/(\d+)", href)
        if query_search:
            return (int(query_search.group(1)), anchors[0].text )
        else:
            return (href, anchors[0].text )
    else:
        return td.text

def filter_none(d):
    """
    return dict d without any items with None for value
    """
    return dict([(k,v) for (k,v) in d.items() if v is not None])

def runs_list(limit=None, from_=None, _sleep=0):
    """
    Generator for all the queries on http://quarry.wmflabs.org/query/runs/all
    """

    url = ("http://quarry.wmflabs.org/query/runs/all?" +
            urlencode(filter_none({'from':from_, 'limit':limit})))    
    more_pages = True

    while more_pages:

        r = requests.get(url)
        page = requests.get(url).content.decode("UTF-8")
        doc = fromstring(page)

        # grab headers
        headers = [th.text for th in doc.xpath("//th")]

        # yield rows
        for tr in doc.xpath("//tr[td]"):
            yield [anchor_info_or_text(td) for td in tr]

        # next link
        next_links = doc.xpath('//li[@class="next"]/a')
        if next_links:
            url = ("http://quarry.wmflabs.org/query/runs/all?" +
                 next_links[0].attrib['href'])
        else:
            more_pages = False

        time.sleep(_sleep)

In [ ]:

print ("time of analysis:", datetime.datetime.utcnow().isoformat(), "\n")
queries = []

# loop and print out which row we're on

for (i, item) in enumerate(islice(runs_list(_sleep=0.5), None)):
    print("\r {0}".format(i), end="")
    queries.append( (item[0][0], item[0][1], item[1][1], item[2], item[3]))

In [ ]:

df = DataFrame(queries, columns=['id', 'title', 'creator','status', 'time'])
df.tail()

In [ ]:

len(df[df.creator=='RaymondYee'])

In [ ]:

# how many unique ids

len(df.id.unique()), len(df.creator.unique())

In [ ]:

# loop through users to accumlate data on all user queries
# on the way to computing most starred query

queries_by_user = dict()

for (i, username) in enumerate(islice(df.creator.unique(),None)):
    print ("\r {0}".format(i), end="")
    queries_by_user[username] = user_queries(username)

In [ ]:

# let's look at what starred

starred_q = Counter()

for (u, d) in queries_by_user.items():
    for q in d['starred']:
        starred_q.update([q])    

starred_q_display = ""

for (q, count) in starred_q.most_common():
    starred_q_display += u"<div><a href='http://quarry.wmflabs.org/query/{0}'>{1}</a>: {2}</div>".format(q[0],q[1],count)

HTML(starred_q_display)

In [ ]:

Why Care about Quarry?

How to learn more about Quarry

Python imports

Working with results from a specific query

A Python function to download information about a Quarry query

Getting all queries for a given username

Analyzing queries of all Quarry users collectively

Some Next Steps